Slot Attention

https://scrapbox.io/files/65093fc7981ffc001cf5ed44.png

feature mapとpositional encodingを入力として、入力のkeyに対応するslotを出力している？

Slot = K個の出力ベクトルセットであり、各ベクトルは、入力中のオブジェクトやエンティティを記述できる。

学習（iteration、重みの更新）の度に、Slotは入力特徴の特定の部分にbindされる。

each slotの最終として、unsupervised opject discoveryや教師ありset predictionに使用することが可能である。

入力を、$ \text{inputs}\in\mathbb{R}^{N\times D_{\text{inputs}}}とし、出力は$ Kこの$ D_{\text{slots}}次元となる。(batchはomit)

CNNの出力のように、可視性かつオブジェクト単位での知覚ができると望ましい。

https://scrapbox.io/files/650950c9b890a8001cc33939.png

オブジェクト単位でのattention mapを得ることが可能？